Cumsum
=================

沿指定轴计算张量的累积和

对于输入张量，沿指定轴计算累积和。支持独占（exclusive）和包含（inclusive）两种模式。

.. math::

    \text{output}[i] = \begin{cases}
        0, & \text{if } i = 0 \text{ and exclusive} = \text{True} \\
        \sum_{j=0}^{i-1} \text{input}[j], & \text{if } i > 0 \text{ and exclusive} = \text{True} \\
        \text{input}[0], & \text{if } i = 0 \text{ and exclusive} = \text{False} \\
        \sum_{j=0}^{i} \text{input}[j], & \text{if } i > 0 \text{ and exclusive} = \text{False}
    \end{cases}

输入：
    - **input** - 输入数据地址。
    - **out_dim** - 输出维度（层数）。
    - **axis_dim** - 累积轴的维度大小。
    - **inner_dim** - 内部维度大小。
    - **exclusive** - 是否使用独占模式。1表示独占模式，0表示包含模式。
    - **core_mask(int, 可选)** - 核掩码（仅适用于共享存储版本）。
    
输出：
    - **output** - 计算结果地址。

支持平台：
    ``FT78NE``
    ``MT7004``

.. note::
    - FT78NE 支持int8, int16, int32, fp32, fp64, cplx64, cplx128
    - MT7004 支持fp16, fp32, int16, int32, cplx64
    - 独占模式（exclusive=1）：第一个元素为0，第i个元素为前i-1个元素之和
    - 包含模式（exclusive=0）：第一个元素为输入的第一个元素，第i个元素为前i个元素之和

**共享存储版本：**

.. c:function:: void i8_cumsum_s(int8_t* output, int8_t* input, int out_dim, int axis_dim, int inner_dim, int exclusive, int core_mask)
.. c:function:: void i16_cumsum_s(int16_t* output, int16_t* input, int out_dim, int axis_dim, int inner_dim, int exclusive, int core_mask)
.. c:function:: void i32_cumsum_s(int32_t* output, int32_t* input, int out_dim, int axis_dim, int inner_dim, int exclusive, int core_mask)
.. c:function:: void hp_cumsum_s(half* output, half* input, int out_dim, int axis_dim, int inner_dim, int exclusive, int core_mask)
.. c:function:: void fp_cumsum_s(float* output, float* input, int out_dim, int axis_dim, int inner_dim, int exclusive, int core_mask)
.. c:function:: void dp_cumsum_s(double* output, double* input, int out_dim, int axis_dim, int inner_dim, int exclusive, int core_mask)
.. c:function:: void c64_cumsum_s(float (*output)[2], float (*input)[2], int out_dim, int axis_dim, int inner_dim, int exclusive, int core_mask)
.. c:function:: void c128_cumsum_s(double (*output)[2], double (*input)[2], int out_dim, int axis_dim, int inner_dim, int exclusive, int core_mask)

    **C调用示例：**

    .. code-block:: c
        :linenos:
        :emphasize-lines: 13

        //FT78NE示例
        #include <stdio.h>
        #include <cumsum.h>

        int main(int argc, char* argv[]) {
            float *input = (float *)0xA0000000;   //input在DDR空间
            float *output = (float *)0xB0000000;  //output在DDR空间
            int out_dim = 8;       // 输出维度
            int axis_dim = 16;     // 累积轴维度
            int inner_dim = 16;    // 内部维度
            int exclusive = 0;     // 包含模式
            int core_mask = 0xff;
            fp_cumsum_s(output, input, out_dim, axis_dim, inner_dim, exclusive, core_mask);
            return 0;
        }


**私有存储版本：**

.. c:function:: void i8_cumsum_p(int8_t* output, int8_t* input, int out_dim, int axis_dim, int inner_dim, int exclusive)
.. c:function:: void i16_cumsum_p(int16_t* output, int16_t* input, int out_dim, int axis_dim, int inner_dim, int exclusive)
.. c:function:: void i32_cumsum_p(int32_t* output, int32_t* input, int out_dim, int axis_dim, int inner_dim, int exclusive)
.. c:function:: void hp_cumsum_p(half* output, half* input, int out_dim, int axis_dim, int inner_dim, int exclusive)
.. c:function:: void fp_cumsum_p(float* output, float* input, int out_dim, int axis_dim, int inner_dim, int exclusive)
.. c:function:: void dp_cumsum_p(double* output, double* input, int out_dim, int axis_dim, int inner_dim, int exclusive)
.. c:function:: void c64_cumsum_p(float (*output)[2], float (*input)[2], int out_dim, int axis_dim, int inner_dim, int exclusive)
.. c:function:: void c128_cumsum_p(double (*output)[2], double (*input)[2], int out_dim, int axis_dim, int inner_dim, int exclusive)

    **C调用示例：**

    .. code-block:: c
        :linenos:
        :emphasize-lines: 12

        //FT78NE示例
        #include <stdio.h>
        #include <cumsum.h>

        int main(int argc, char* argv[]) {
            float *input = (float *)0x10810000;   //input在L2空间
            float *output = (float *)0x10850000;  //output在L2空间
            int out_dim = 8;       // 输出维度
            int axis_dim = 16;     // 累积轴维度
            int inner_dim = 16;    // 内部维度
            int exclusive = 0;     // 包含模式
            fp_cumsum_p(output, input, out_dim, axis_dim, inner_dim, exclusive);
            return 0;
        }